import pandas as pd

# 读取文件
excel_file = pd.ExcelFile('student.xlsx')

# 获取指定工作表中的数据
df = excel_file.parse('Sheet1')

print('数据全部内容信息：')
print(df.to_csv(sep='\t', na_rep='nan'))

# 按性别统计学生人数
gender_count = df['性别'].value_counts()

print('按性别统计学生人数：')
print(gender_count)

# 定义年龄段区间
bins = [0, 18, 25, 40, 100]
labels = ['0 - 18岁', '19 - 25岁', '26 - 40岁', '41岁及以上']

# 对年龄进行分组并统计人数
df['年龄段'] = pd.cut(df['年龄'], bins=bins, labels=labels, right=False)
age_group_count = df['年龄段'].value_counts()

print('按年龄段统计学生人数：')
print(age_group_count)

# 定义函数来提取地区信息
def extract_region(address):
    if '海南省' in address:
        return address.split('省')[1].split('市')[0].split('县')[0]
    else:
        return address.split('省')[0].split('自治区')[0]

# 提取地区信息
df['地区'] = df['家庭地址'].apply(extract_region)

# 按地区统计学生人数
region_count = df['地区'].value_counts()

print('按地区（外省按省份，海南省按市县）统计学生人数：')
print(region_count)